重要的是要了解流行的正则化方法如何帮助神经网络训练找到良好的概括解决方案。在这项工作中,我们从理论上得出了辍学的隐式正则化,并研究了损失函数的Hessian矩阵与辍学噪声的协方差矩阵之间的关系,并由一系列实验支持。然后,我们在数值上研究了辍学的隐式正规化的两个含义,这直觉上合理化了辍学有助于概括。首先,我们发现辍学的训练与实验中的标准梯度下降训练相比,发现具有最低最小的神经网络,而隐式正则化是找到平坦溶液的关键。其次,经过辍学的训练,隐藏神经元的输入权重(隐藏神经元的输入权重由其输入层到隐藏的神经元及其偏见项组成),往往会凝结在孤立的方向上。凝结是非线性学习过程中的一个功能,它使神经网络的复杂性低。尽管我们的理论主要集中在最后一个隐藏层中使用的辍学,但我们的实验适用于训练神经网络中的一般辍学。这项工作指出了与随机梯度下降相比,辍学的独特特征,是完全理解辍学的重要基础。
translated by 谷歌翻译